지역별 뉴스를 확인하세요.

많이 본 뉴스

광고닫기

[AI 인사이트] 똑똑한 AI의 그늘, 감춰진 편향성

인공지능(AI)의 활용이 급속도로 확대되는 가운데, AI의 편향성 문제에 대한 경각심이 요구된다. AI의 답변은 어떤 데이터를 바탕으로 학습했느냐에 따라 달라질 수밖에 없으며, 그 과정에서 의도치 않은 왜곡과 불균형이 발생할 가능성이 크다.     현재 AI는 온라인 뉴스나 인터넷과 같은 거대한 공공 데이터를 기반으로 학습되고 있지만, 모든 데이터를 전문가가 검증하는 것은 현실적으로 불가능하다. 따라서 학습 데이터의 질적 한계를 완전히 극복하기 어려우며, 이로 인해 정보의 정확성과 일관성 측면에서 여러 문제가 제기될 수 있다.   특히 한국어 기반 AI 서비스에서는 편향성이 더욱 심각한 문제로 떠오른다. AI가 역사·문화·사회적 가치관을 반영하는 과정에서 서구 중심적 시각이나 특정 국가의 입장이 강화되는 경향을 보이기 때문이다.     실제로 일부 AI 챗봇과 번역 AI가 일제강점기 위안부나 강제징용 문제에 대해 왜곡된 정보를 제공하는 사례가 발생했다. “위안부는 자발적으로 일했다”거나 “강제징용은 노동 계약이었다”는 식의 오류는 AI가 서구권 데이터에서 일본 측 자료를 더 많이 학습한 결과일 가능성이 크다.     독도 문제 역시 마찬가지다. AI가 독도를 “리앙쿠르 암초” 혹은 “일본과 한국이 영유권을 주장하는 섬”이라고 설명하는 것은 학습 데이터 편향성의 단적인 예다. 이는 한국뿐만 아니라 역사적·문화적 정체성이 중요한 많은 국가들에게도 심각한 문제로 작용할 수 있다.   AI의 편향성 문제는 특정 국가나 문화에 국한되지 않는다. 예를 들어, 미국에서도 성별과 젠더 이슈와 관련된 AI 편향이 문제로 지적되고 있다. 일부 AI 모델이 “여성은 감성적이고, 남성은 논리적이다”와 같은 성 역할 고정관념을 답변에 반영하는 사례가 있다.     이는 AI가 학습한 방대한 인터넷 데이터 속에 성차별적 편견이 내재하여 있기 때문이다. 이처럼 AI가 단순히 사실을 전달하는 도구가 아니라, 학습된 데이터에 따라 특정한 관점을 강화할 가능성이 있다는 점은 우리가 깊이 고민해야 할 부분이다.   더욱 우려스러운 점은 쉽게 드러나지 않는 ‘미세한 편향성’이다. 서구권 데이터로 학습된 AI는 서구권의 감정, 철학, 가치관을 자연스럽게 반영하며, 이는 궁극적으로 서구권에 유리한 정보 제공으로 이어질 수 있다.     마찬가지로, 중국 데이터로 학습된 AI는 중국의 사고방식을 반영해 중국에 유리한 정보를 생성할 가능성이 크다. 문제는 이러한 미묘한 편향성이 반복적으로 축적되면서 사용자들이 무의식적으로 친서구적, 친중국적 사고방식을 내면화할 위험이 있다는 점이다.     특히, 미래 세대가 AI를 주요 정보원으로 삼을 경우, 편향된 정보가 그대로 교육에 반영될 수 있다는 점에서 심각한 문제가 될 수 있다.   그렇다면 이러한 편향성을 어떻게 극복할 수 있을까.     현실적으로 이미 존재하는 데이터에서 편향성을 제거하는 것은 불가능에 가깝다. 최소한 한국에 맞춘 AI를 개발하기 위해서는 대용량의 다양한 양질의 한국어 데이터를 확보해야 하지만, 단기간에 이를 구축하기란 쉽지 않다.     현재 네이버와 같은 기업과 정부가 협력해 한국형 AI 개발에 나서고 있지만, 학습에 필요한 방대한 한국어 콘텐츠가 부족하다는 근본적 한계를 극복하는 것은 쉽지 않을 것이다.   AI의 편향성 문제는 단순히 기술적 해결만으로 해결될 수 있는 문제가 아니다. AI가 학습에 사용한 데이터가 가진 원천적 편향성의 문제는 쉽게 해결하기 어려운 문제이기에 AI의 사용자들은 이 문제를 항상 염두에 두고 AI의 답변을 다시 한번 검토해 소화하는 노력이 필요하다. 김선호 / USC 컴퓨터 과학자AI 인사이트 편향성 그늘 편향성 문제 서구권 데이터 학습 데이터

2025-04-06

[전문가 칼럼] 인공지능 학습 데이터 전쟁

 최근 인공지능 발전의 주요한 흐름으로 인공신경망의 ‘대용량화’를 손꼽을 수 있다. 지난 10월 마이크로소프트와 엔비디아 사는 5300억 개의 파라미터를 갖춘 초대규모 자연어 생성 인공지능을 발표했다. 기존 유사 인공지능의 용량을 3배 이상 키운 것이다.   이처럼 인공지능의 대규모화가 진행되면서 인공지능 프로젝트의 규모도 커지고 있다. 종래에는 연구자의 아이디어나 기술력이 중요했지만 이제 얼마나 많은 자원을 투입할 수 있는가를 두고서도 경쟁하는 양상이다.   인공지능 경쟁이 격화되면서 새로운 전장(戰場)으로 떠오르는 것이 바로 인공지능 학습 데이터 확보 문제이다. 대규모 인공지능을 학습시키기 위해 수백 기가바이트(GB)가 넘는 데이터가 사용되는 일도 빈번하다. 얼마나 질 좋은 학습 데이터를 확보하는지에 따라 인공지능 성능이 크게 좌우되기도 한다.     그래서 이미 방대한 학습 데이터를 확보한 선행 사업자들은 신규 진입자들의 데이터 확보를 막기 위해 애쓴다.   이러한 다툼은 소송으로도 이어지고 있다. 링크드인(LinkedIn)과 hiQ사 간의 분쟁이 대표적이다. 링크드인은 가입자가 6억 명이 넘는 세계적인 구인·구직 플랫폼이다. 많은 이들이 링크드인에 자신의 이력 정보를 업로드하고 새로운 일자리를 찾는다. 수천만 곳이 넘는 기업이 직원 채용을 위해 링크드인 서비스를 사용한다. 링크드인은 그야말로 채용 관련 데이터의 보고(寶庫)라 할 수 있다.   미국 스타트업 hiQ는 채용 정보분석 인공지능 학습을 위해 링크드인 데이터를 대량으로 내려받아 사용해 왔다. 그러자 링크드인은 hiQ의 접속을 차단했다. 이용자가 허용한 개인정보 사용 범위는 자신의 지인이나 구인 기업이 채용과 관련하여 활용하는 것인데, 그 범위를 초과했다는 것이다.     hiQ의 주장은 정반대다. 그저 웹사이트에 공개된 이력 정보를 사용한 것이니 문제될 것이 없다는 것이다. 양사의 분쟁은 법정으로 이어졌다.   2019년 연방항소법원은 hiQ의 손을 들어주었다. 후발 사업자가 자유롭게 데이터를 확보해서 경쟁할 수 있도록 허용해야 한다는 취지였다.     그러나 지난해 여름 연방대법원은 사건을 파기 환송했다. hiQ가 링크드인의 서비스 이용 약관을 위반한 것이 위법한지 여부를 재심리하라는 것이다.     이 사건의 쟁점은 복잡하고 다면적이다. 링크드인은 이용자의 사생활을 보호하고 개인정보 통제권을 보장할 필요성을 내세운다. 후발 사업자의 무임승차를 제한해야 이용자에게 득이 된다고 한다. 반대로 hiQ는 경쟁의 중요성을 강조한다. 선행 사업자가 데이터를 독점한다면 시장 경쟁을 통한 혁신이 불가능하게 된다는 주장이다.   비슷한 다툼이 여기저기서 이어지고 있다. 애플은 올해 아이폰 운영체제 iOS를 업데이트했다. 이용자가 명시적으로 동의한 경우에만 맞춤형 광고를 위한 이용자 앱 사용 데이터 수집을 허용하도록 바꾸었다. 명목은 이용자 사생활 보호를 강화한다는 것이다.     그러나 페이스북과 같은 모바일 앱 광고 사업자들은 크게 반발했다. 애플이 맞춤형 광고 시장 진출을 본격화하면서, 경쟁 사업자들의 데이터 수집을 막으려 한다는 것이다. 이용자 사생활 보호는 그저 핑계일 뿐이고, 애플이 이미 이용자 정보를 다수 수집해 놓은 상황에서, ‘사다리 걷어차기’를 통해 경쟁자의 사업을 방해한다고 비판한다.  거대 플랫폼과 경쟁 사업자 간의 분쟁이라는 점에서 링크드인 사건과 구도가 유사하다.   기존 법 제도가 새로운 경쟁 환경에 적절히 대응하지 못하는 경우는 적지 않다. 인공지능 학습 데이터에 대해 이처럼 세계적으로 논란이 되는 것도 놀랄 일은 아니다. 하지만 이 문제에서는 여러 가치가 충돌하면서 적절한 균형점을 찾기 쉽지 않은 상태다. 자유로운 기술 혁신과 시장 경쟁 환경을 조성해야 할 필요가 있지만, 기존 사업자의 투자와 지식재산권도 보호해야 한다. 더욱이 이용자에 의한 개인정보 통제권도 보장해야 한다. 세 마리 토끼를 모두 쫓아야 한다. 함께 힘을 모아 지혜롭게 해법을 찾을 수 있기를 기대한다. 김병필 / KAIST 기술경영학부 교수전문가 칼럼 인공지능 데이터 인공지능 학습 학습 데이터 인공지능 경쟁

2022-01-12

많이 본 뉴스




실시간 뉴스